好了,我們該拿這快兩千個檔案怎麼辦好呢?
先從檔案最大的開始下手好了,一次提供這麼多檔案,相信開會時大家會有很多疑慮。
既然都是文字檔,用資料夾大小(du -h)來判斷下。
root@mynb:/mnt/d/Difficult_Company# du -h
97M ./Additional_Logs
15M ./CECC_Errors
116K ./IERR
8.0M ./UECC_Errors
7.6M ./UMCE
21M ./Voltage
148M .
隨便開一個log來看看到底有什麼問題
SEL Record ID : 0001
Record Type : 02
Timestamp : 05/09/2019 01:07:17
Generator ID : 0020
EvM Revision : 04
Sensor Type : Management Subsys Health
Sensor Number : 7a
Event Type : Sensor-specific Discrete
Event Direction : Assertion Event
Event Data : 020100
Description : Management controller off-line
SEL Record ID : 0002
Record Type : 02
Timestamp : 05/09/2019 01:07:34
Generator ID : 0020
EvM Revision : 04
Sensor Type : Power Supply
Sensor Number : f5
Event Type : Generic Discrete
Event Direction : Assertion Event
Event Data : 00ffff
Description : Fully Redundant
...
...
...
想不到裡頭竟然沒有任何error,真的是昏倒,不過證實了這個資料夾有一定灌水的成份在,只是欠缺檢查的手段。
因此先往有明確寫出Error symptom的資料夾先做檢查。
直覺上用grep 檢查一下voltage這個keyword,再排除檔案中有多個重複log的情況最後做計數
root@mynb:/mnt/d/Difficult_Company/Voltage# grep -i voltage * | uniq | wc -l
177
root@mynb:/mnt/d/Difficult_Company/Voltage#
初步來看數字是相符的,那麼這個資料夾再來就只剩下詳細分析了,我們往第三名前進。
一樣用grep 檢查一下,天啊!怎麼變成628個了!
root@AN990163884:/mnt/d/Difficult_Company/CECC_Errors# grep -i correctable * | uniq | wc -l
628
root@AN990163884:/mnt/d/Difficult_Company/CECC_Errors#
只好認命把結果用less印出來看,原因如下
root@mynb:/mnt/d/Difficult_Company/CECC_Errors# grep -i correctable * | less
107m28.log: Description : Correctable machine check error
114m81.log: Description : Correctable machine check error
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC
114m85.log: Description : Correctable ECC logging limit reached
114m85.log: Description : Correctable memory error logging disabled
98m31.log: Description : Uncorrectable machine check exception
...
...
可以看到客人在CECC_Errors的分類中,還是有夾雜其他Correctable/Uncorrectable Machine check error的問題類別,不過一般來說這些HW error常常也是夾雜附隨著發生,往往一開始只是零星的Correctable ECC or Correctable Machine check error而後立即或是過一陣子發生Uncorrectable ECC or Uncorrectable Machine check error.
至此,這個資料夾的檢查已經沒有太大價值了,因為這些機器所發生的問題已經只有複雜度的差別,無法簡單的一視同仁來處理與比較。
第四名是UECC_Errors,18M以及110個檔案
這次學乖了,先用grep確認下大概的內容
root@mynb:/mnt/d/Difficult_Company/UECC_Errors# grep -i correctable *
97m147.log: Description : Correctable ECC
97m147.log: Description : Correctable ECC
97m147.log: Description : Uncorrectable machine check exception
97m147.log: Description : Uncorrectable ECC
97m147.log: Description : Correctable ECC
97m147.log: Description : Correctable ECC logging limit reached
97m147.log: Description : Correctable memory error logging disabled
97m147.log: Description : Uncorrectable ECC
...
...
結果也和CECC_Errors類似,同樣處於Correctable ECC or Correctable Machine check error積累後成為Uncorrectable ECC or Uncorrectable Machine check error的狀態。
第五名是UMCE,8M以及167個檔案
老樣子先用cmd檢查下log
root@mynb:/mnt/d/Difficult_Company/UMCE# grep -i correctable *
114m77.log: Description : Uncorrectable machine check exception
114m77.log: Description : Uncorrectable machine check exception
114m77.log: Description : Uncorrectable machine check exception
114m84.log: Description : Uncorrectable machine check exception
114m84.log: Description : Uncorrectable machine check exception
114m84.log: Description : Uncorrectable machine check exception
114m87.log: Description : Uncorrectable machine check exception
114m87.log: Description : Uncorrectable machine check exception
114m87.log: Description : Uncorrectable machine check exception
11m162.log: Description : Uncorrectable machine check exception
11m162.log: Description : Uncorrectable machine check exception
...
...
這次非常的乾淨,信心大增,來直接uniq試試好了
root@mynb:/mnt/d/Difficult_Company/UMCE# grep -i correctable * | uniq | wc -l
167
看來這個資料夾也沒有大問題。最後的IERR資料夾只有2個檔案,檢查後也是確實有發生問題。
到此資料夾的內容算是初步檢查完畢!再來就是回頭把那個不知所以的Additional_Logs處理掉,就可以帶著這些發現去開會了!